滴滴崩了近 36 小时后再发致歉:系底层系统软件故障,现所有服务已恢复!
这两天,无数打工人打开滴滴打车软件发现:网络加载异常,本以为是个人的网络问题,然而,当涌进微博、朋友圈等社交媒体平台时,发现自己绝非个例,这才意识到这款占全国网约车市场 75% 以上的滴滴软件出了 Bug。
而后本想扫个青桔单车换个方式出行之际,发现同样出自滴滴的共享单车也依然扫不了码,甚至早一步发现“端倪”的众多用户早已把美团、哈啰单车也骑没了......
紧接着,#滴滴崩了#、因迟到而导致的 #全勤奖没了#等相关词条相继出现在热搜榜单,一时之间,各种口诛笔伐,滴滴成为众矢之的。
这样的宕机事件,足以从滴滴连续三天发了三条致歉声明中就足以知晓事件的严重性。就在今天在 11 月 29 日,滴滴 正式宣布:目前,滴滴 App 的所有服务已经全部恢复。
滴滴崩了 ,信息时代的乱象
根据 11 月初,滴滴发布的 2023 年第三季度业绩报告显示,滴滴三季度核心平台总单量达到 35.79 亿单,同比增长 34%。其中,中国出行总单量为 28.78 亿单,同比增长 32%,意味着中国出行三季度日均单量达到 3130 万单,突破单季度历史峰值。
数字经济时代,如此体量的 App 一时崩溃,带来的影响必然是巨大的,也正如网友所评价的,「滴滴作为媒介已经渗入了大众生活的方方面面,滴滴崩了,但不止于崩了如此简单」。
而一切的混乱是从 11 月 27 晚间开始的。
彼时据澎湃新闻报道,有网友称,使用滴滴叫网约车后,迟迟等不来车,App 也无法使用,司机更是不知道用户在哪里。
还有司机反馈,「正在送乘客途中,出现导航无法使用,地图无法加载等情况」。
虽然当时滴滴反应迅速,在第一时间便发布了公告来安抚用户:
“滴滴出行后来发布公告,由于系统故障,晚间滴滴 App 服务出现异常,经技术同学紧急修复,目前正陆续恢复中。无法锁车的骑行用户无需原地等待,到达终点无法结账的乘客可正常下车回家,无需担忧因故障造成的车费问题,请大家耐心等待后续通知,后续都会妥善处理。”
但是在用户的「一个滴滴的程序员,如果没法远程工作,要回办公室紧急处理,又打不到车,他会用____平台打车?」反问声中,一夜之后,迎来次日流量更大的早高峰时,滴滴网约车功能并未恢复使用,依然显示网络加载异常。
当时,此次宕机事件已经波及上海、北京、广州等全国多地的用户。
据第一财经报道,从员工的各方反馈看,此次滴滴系统崩溃属于全面瘫痪。不仅用户端无法正常使用,司机端以及滴滴内网同样出现了问题。
打开滴滴网站时,会报「502」错误:
“我可以提现,只是好久了,一直没有到账。不过有的司机说到账了,只是时间都不一样。” 接了一单距离为 8 公里的订单,收费显示 1540 元。
滴滴再次致歉:底层系统软件发生故障
回看过往,滴滴发生宕机事件并不在少数。近三年间,滴滴发生过四次故障:
2020 年 9 月,多地用户使用滴滴出行打车时,出现网络故障的提示。后来滴滴只是回应称:技术故障已修复。
2021 年 2 月、3 月,滴滴再次出现打不了车、发布的行程也看不见、司机接到人后开启不了订单、司机无法结束订单等多种异常情况。
2022 年 9 月 22 日,滴滴出行官方微博致歉称由于机房网络故障,导致滴滴部分服务受影响。
过往的 Bug 修复时间很快便可完成,只是这一次耗费的时间之久也超乎众人想象。
而就在外界猜测滴滴此次故障到底是因为遭到了 DDoS 攻击,还是由于基础设施层升级出现问题时,滴滴首次向外界首次披露了宕机的原因:
初步确定,这起事故的起因是底层系统软件发生故障,并非网传的“遭受攻击”,后续我们将深入开展技术风险隐患排查和升级工作,全面保障服务稳定性,尽最大努力避免类似事故再发生。
底层系统软件故障如何降低宕机事件的发生?
事实上,所谓底层系统软件,是指操作系统、驱动程序和其他核心组件,它们负责管理硬件资源、提供基本的功能和接口,以及支持其他应用程序的运行。发生故障可能包含软件错误、驱动程序问题、系统配置错误、硬件故障等。
当底层系统软件发生故障时,会导致设备、App 无法正常工作或无法执行特定的任务,这可能包括系统崩溃、应用程序崩溃、设备无响应、错误消息的出现等现象,也就是此次滴滴无论是网约车还是共享单车都出现了问题。
当然,具体是哪一块的问题,还需要滴滴自己进一步的复盘审查。而这次的底层系统软件发生故障的原因,也有媒体分析称或与滴滴企业内部人员优化有关。
有微博用户评论道,「这种事故会越来越多...原因不是在于裁人裁出问题了,而是经济上行阶段都有冗余,为了迎接随时爆发的订单,上行阶段要维持负载的上限不能过大,比如平时 70%(数字仅仅用作举例),这样遇到一个小爆发不用担心会出问题,足以应对小高峰,但是下行期的逻辑就不同了,负载很高的时候抗一抗就行了,虽然后面遇到小高峰可能会难受,但是随着时间的推移总体负载会下降,所以。。。」
站在企业内部面向基础设施的运营与维护,工程师究竟该怎么做?基于此,我们也采访了几位开发者的看法。
对此,蚂蚁集团高级工程师明明如月表示,「大型互联网公司出问题短时间无法解决,通常都是底层软件变动或者硬件故障。特点是难以快速定位和快速解决问题。对于底层软件变动,应该慎之又慎,每次变动应该做好评估,并且有可能进行“灰度”验证,重视底层软件的故障发现机制。另外,现在互联网公司上层应用的高可用做得挺完善,底层应用的高可用似乎做得并不好,也应该有类似的机制。」
资深开发者苏洋(https://github.com/soulteary)认为:
“在大公司做基础设施的工程师,相比做’主要赚钱业务‘的工程师收入相对较少,公司不论是物质资源、战略重视度倾斜都更偏业务。这块和安全部门在大公司的境遇类似,出了事儿,才能被证明价值,才会被人想起来。
其实,做 infra 的工程师的人数和平均水平线也相对不占优势,曾经做 infra 的朋友打趣戏虐的说,‘好人’谁做基础设施,但其实做基础设施的工程师要求往往比做业务的要更难。
此外,考虑降本增效,大家往往会对资源本就不充沛的部门进一步压缩成本。
infra 这类成本部门中的成本部门,往往会无限制的要求效能提升,也对做好底层系统稳定性有影响。希望‘降本增笑、开猿节流’的地狱笑话,慢慢不会再流通了。」
最后对于此次事件带来的广泛影响,截至目前,滴滴也非常有诚意地为所有用户准备了 1 张 10 元打车立减券用于致歉补偿,话说,你领到了吗?
推荐阅读:
▶拼多多市值一夜大涨2000亿,市值逼近阿里;OpenAI预计不向微软等投资者提供董事会席位;亚马逊推出AI聊天机器人Q|极客头条
▶月入近 8 万、4 个月涨 15 万粉,甚至曾被明星私下邀约的 Ins 网红……竟然不是「人」?!